性能提升

SCoRe

SCoRe是一种由谷歌DeepMind提出的基于强化学习的多轮训练方法,旨在提高大型语言模型的自我纠错能力。它通过模型自动生成的数据进行训练,并采用正则化约束与奖励机制,有效提升了模型在数学、编程等任务中的准确性。此外,SCoRe能够适应训练与推理过程中的数据分布差异,展现出较强的灵活性与实用性。

ProX

ProX是一种用于提升大型语言模型预训练数据质量的框架,通过自动化编程手段实现数据清洗和精炼。其主要特点包括自动化细粒度数据处理、无需人工干预、显著提升模型性能以及广泛的领域适应性。ProX在多种任务中展示了超过2%的性能提升,并有效降低了训练成本。

MoE++

MoE++是一种基于混合专家架构的新型深度学习框架,通过引入零计算量专家、复制专家和常数专家,有效降低计算成本并提升模型性能。它支持Token动态选择FFN专家,并利用门控残差机制实现稳定路由,同时优化计算资源分配。该框架易于部署,适用于多种应用场景,包括自然语言处理、智能客服及学术研究。

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架,专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务,提升了模型对视频内容的时间感知能力,减少了幻觉风险,并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

Teacher2Task

Teacher2Task是一个由谷歌团队研发的多教师学习框架,其核心在于引入教师特定的输入标记并重新构建训练过程,以减少对人工聚合方法的依赖。通过将训练数据转化为多个子任务,该框架能够从不同教师的多样化预测中学习,提高模型的性能和鲁棒性,同时降低标签不准确性的风险。它适用于机器翻译、图像理解、自然语言处理等多个领域,显著提升了数据利用效率。

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。

Saveinsta.cc

一款instagram图片视频下载器。使用 saveinsta,您可以从 instagram 下载高质量的卷轴、视频或图像,无需注册账户,无需支付任何费用。

OpenELM

OpenELM是苹果公司推出的一系列高效开源语言模型,涵盖从2.7亿到30亿参数规模的不同版本。该模型基于Transformer架构,采用层间缩放策略优化参数分配,使用分组查询注意力(GQA)和SwiGLU激活函数等技术。OpenELM在公共数据集上预训练,并在多项自然语言处理任务中展现出色性能。模型代码和预训练权重已公开,旨在促进开放研究和社区发展。